我们考虑了众包平台的成本优化利用问题,即给定规定的误差阈值,用于二进制,无监督分类的项目。假定众包平台上的工人根据他们的技能,经验和/或过去的表现,将其分为多个类。我们通过未知的混淆矩阵对每个工人类建模,并根据标签预测支付(已知的)价格。对于此设置,我们提出了用于从工人那里获取标签预测以及推断项目的真实标签的算法。我们证明,如果可用的(未标记)项目数量足够大,我们的算法满足规定的错误阈值,从而产生了几乎最佳的成本。最后,我们通过广泛的案例研究来验证我们的算法和一些受其启发的启发式启发。
translated by 谷歌翻译
代码混合的文本数据包括带有来自多种语言的单词或短语的句子。全世界大多数多种语言社区都使用多种语言进行交流,而英语通常是其中之一。Hinglish是由印地语和英语组成的代码混合文本,但用罗马脚本编写。本文旨在确定影响系统生成的代码混合文本数据质量的因素。对于Hinglisheval任务,提出的模型使用多语言BERT来找到合成生成和人类生成的句子之间的相似性,以预测合成生成的hinglish句子的质量。
translated by 谷歌翻译
半监督学习方法已成为对打击获得大量注释数据的挑战的活跃研究领域。为了提高半监督学习方法表现的目标,我们提出了一种新颖的框架,Hiematch,一种半监督方法,利用分层信息来降低标签成本并表现以及vanilla半监督学习方法。分层信息通常是具有细粒标签的粗标签(例如,啄木鸟)的粗标签(例如,啄木鸟)的现有知识(例如,柔软的啄木鸟或金朝啄木鸟)。但是,尚未探讨使用使用粗类标签来改进半监督技术的监督。在没有细粒度的标签的情况下,Himatch利用标签层次结构,并使用粗级标签作为弱监控信号。此外,Himatch是一种改进任何半熟的学习框架的通用方法,我们使用我们的结果在最近的最先进的技术Mixmatch和Fixmatch上展示了这一点。我们评估了在两个基准数据集,即CiFar-100和Nabirds上的Himatch疗效。与MixMatch相比,HOMACHACT可以在CIFAR-100上减少50%的粒度标签50%的用量,仅在前1个精度的边缘下降0.59%。代码:https://github.com/07agarg/hiermatch.
translated by 谷歌翻译